package com.tyf;

import com.tyf.util.*;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * 现在的目的： 将所有的数据全部放到 FileParseParam这个类中，  数据有  图片文件存储路径、文字识别结果、图片识别文字结果
 *
 */
public class office {
    public static void main(String[] args) {
            File file = new File("D:\\english_path\\D201-核心交易业务.pdf");
            FileParseParam fileParseParam = new FileParseParam();
        try {
            parseFile(file,fileParseParam);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    public static FileParseParam parseFile(File inputFile,FileParseParam fileParseParam) throws IOException{
        String content = null;
        String text = "大白先生";
        List<File> fileName = new ArrayList<File>();
        //读取文字内容
        try{
            content  = ReadOfficeUtil.readOffice(inputFile);
        }catch (Exception e){
            throw new RuntimeException(e);
        }
        //放入文字内容
        fileParseParam.setParsingWords(content);
        //根据文件后缀名跳入提取文件图片方法
        List<File> list = null;
        try{
            list = OfficeToJudge.formatConversionOffice(inputFile);
        }catch (Exception e){
            throw new FileNotFoundException(e.getMessage());
        }for(File pictureName : list){
            //遍历后将获取到的文件路径依次放到fileParseParam类型的参数中
            fileName.add(pictureName);
        }
        fileParseParam.setStorePath(fileName);
        return fileParseParam;
    }
}
